GAN能够进行一代视频培训的生成和操纵任务。然而,这些单一视频GAN需要不合理的时间来训练单个视频,使它们几乎不切实际。在本文中,我们提出了从单个视频发电的GaN的必要性,并为各种生成和操纵任务引入非参数基准。我们恢复古典时空补丁 - 最近的邻居接近并使其适应可扩展的无条件生成模型,而无需任何学习。这种简单的基线令人惊讶地优于视觉质量和现实主义(通过定量和定性评估确认)的单视频导航,并且不成比例地更快(运行时从几天减少到秒)。除了不同的视频生成之外,我们使用相同的框架展示了其他应用程序,包括视频类比和时空复回靶向。我们所提出的方法很容易缩放到全高清视频。这些观察结果表明,古典方法(如果正确调整),这些任务的大幅优于重度深度学习机械。这为单视频生成和操作任务设置了新的基线,并且不太重要 - 首次从单个视频中从单个视频中产生多样化。
translated by 谷歌翻译
The post-training quantization (PTQ) challenge of bringing quantized neural net accuracy close to original has drawn much attention driven by industry demand. Many of the methods emphasize optimization of a specific degree-of-freedom (DoF), such as quantization step size, preconditioning factors, bias fixing, often chained to others in multi-step solutions. Here we rethink quantized network parameterization in HW-aware fashion, towards a unified analysis of all quantization DoF, permitting for the first time their joint end-to-end finetuning. Our single-step simple and extendable method, dubbed quantization-aware finetuning (QFT), achieves 4-bit weight quantization results on-par with SoTA within PTQ constraints of speed and resource.
translated by 谷歌翻译
Labeling large image datasets with attributes such as facial age or object type is tedious and sometimes infeasible. Supervised machine learning methods provide a highly accurate solution, but require manual labels which are often unavailable. Zero-shot models (e.g., CLIP) do not require manual labels but are not as accurate as supervised ones, particularly when the attribute is numeric. We propose a new approach, CLIPPR (CLIP with Priors), which adapts zero-shot models for regression and classification on unlabelled datasets. Our method does not use any annotated images. Instead, we assume a prior over the label distribution in the dataset. We then train an adapter network on top of CLIP under two competing objectives: i) minimal change of predictions from the original CLIP model ii) minimal distance between predicted and prior distribution of labels. Additionally, we present a novel approach for selecting prompts for Vision & Language models using a distributional prior. Our method is effective and presents a significant improvement over the original model. We demonstrate an improvement of 28% in mean absolute error on the UTK age regression task. We also present promising results for classification benchmarks, improving the classification accuracy on the ImageNet dataset by 2.83%, without using any labels.
translated by 谷歌翻译
We investigate the sample complexity of bounded two-layer neural networks using different activation functions. In particular, we consider the class \[ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{x} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{T\times d}, \textbf{v} \in \mathbb{R}^{T}\right\} \] where the spectral norm of $W$ and $\textbf{v}$ is bounded by $O(1)$, the Frobenius norm of $W$ is bounded from its initialization by $R > 0$, and $\sigma$ is a Lipschitz activation function. We prove that if $\sigma$ is element-wise, then the sample complexity of $\mathcal{H}$ is width independent and that this complexity is tight. Moreover, we show that the element-wise property of $\sigma$ is essential for width-independent bound, in the sense that there exist non-element-wise activation functions whose sample complexity is provably width-dependent. For the upper bound, we use the recent approach for norm-based bounds named Approximate Description Length (ADL) by arXiv:1910.05697. We further develop new techniques and tools for this approach, that will hopefully inspire future works.
translated by 谷歌翻译
异常检测方法努力以语义方式发现与规范不同的模式。这个目标是模棱两可的,因为数据点与规范不同的属性不同,例如年龄,种族或性别,可能被某些操作员认为是异常的,而其他操作员可能认为这种属性无关紧要。从先前的研究中断,我们提出了一种新的异常检测方法,该方法使操作员可以将属性排除在被认为与异常检测相关的情况下。然后,我们的方法学习了不包含有关滋扰属性的信息的表示形式。使用基于密度的方法进行异常评分。重要的是,我们的方法不需要指定与检测异常相关的属性,这在异常检测中通常是不可能的,而是只能忽略的属性。提出了一项实证研究,以验证我们方法的有效性。
translated by 谷歌翻译
了解神经网络记住培训数据是一个有趣的问题,具有实践和理论的含义。在本文中,我们表明,在某些情况下,实际上可以从训练有素的神经网络分类器的参数中重建训练数据的很大一部分。我们提出了一种新颖的重建方案,该方案源于有关基于梯度方法的训练神经网络中隐性偏见的最新理论结果。据我们所知,我们的结果是第一个表明从训练有素的神经网络分类器中重建大部分实际培训样本的结果是可以的。这对隐私有负面影响,因为它可以用作揭示敏感培训数据的攻击。我们在一些标准的计算机视觉数据集上演示了二进制MLP分类器的方法。
translated by 谷歌翻译
在Web规模数据上预测的大型视觉和语言模型提供了对许多V&L问题无价的表示。但是,目前尚不清楚如何将它们用于以非结构化语言为特定于用户特定的视觉概念。这个问题来自多个域,从个性化图像检索到与智能设备的个性化交互。我们介绍了一个新的学习设置,称为个性化视觉和语言(PERVL),并使用两个新的基准数据集来检索和细分用户特定的“个性化”概念“野外”。在PERVL中,应该独立于下游任务(2)允许经过审慎的模型以免费语言来推论它们,并且(3)不需要个性化的负面示例。我们提出了一个用于解决PERVL的体系结构,该体系结构通过扩展了一个预审计模型的输入词汇,并用新单词嵌入新的个性化概念。然后,模型可以通过简单地在句子中使用它们来推理它们。我们证明我们的方法从几个示例中学习了个性化的视觉概念,并且可以使用丰富的文本查询有效地将它们应用于图像检索和语义细分中。
translated by 谷歌翻译
异常检测方法识别偏离数据集的正常行为的样本。它通常用于训练集,其中包含来自多个标记类或单个未标记的类的普通数据。当前方法面对培训数据时争取多个类但没有标签。在这项工作中,我们首先发现自我监督的图像聚类方法学习的分类器为未标记的多级数据集上的异常检测提供了强大的基线。也许令人惊讶的是,我们发现初始化具有预先训练功能的聚类方法并不能改善其自我监督的对应物。这是由于灾难性遗忘的现象。相反,我们建议了两级方法。我们使用自我监督方法群集图像并为每个图像获取群集标签。我们使用群集标签作为“伪监督”,用于分销(OOD)方法。具体而言,我们通过群集标签对图像进行分类的任务进行预训练功能。我们提供了我们对方法的广泛分析,并展示了我们两级方法的必要性。我们评估符合最先进的自我监督和预用方法,并表现出卓越的性能。
translated by 谷歌翻译
近年来,许多作品已经解决了在视频中发现从未见过的问题。然而,大多数工作都集中在从安全摄像机中检测监视视频中的异常帧。同时,异常检测(AD)在具有异常力学行为的视频中的任务大多被忽视。在这些视频中的异常检测是学术和实际的兴趣,因为它们可以在许多制造,维护和现实生活中自动检测出故障。为了评估检测这种异常的不同方法的潜力,我们评估了两个简单的基线方法:(i)时间汇集图像广告技术。 (ii)用于视频分类的预追溯特征的视频的密度估计。开发此类方法要求新的基准,以允许评估不同可能的方法。我们介绍了物理异常轨迹或运动(幻像)数据集,其中包含六个不同的视频类。每个类都包括正常和异常的视频。课程在呈现的现象,正常的级别变异性和视频中的异常类型中不同。我们还建议甚至更难的基准,应该在高度变量场景中发现异常活动。
translated by 谷歌翻译
谷歌的运营洪水预测系统是制定的,为机构和公众提供准确的实时洪水警告,重点是河流洪水在大型潮流的河流中。它在2018年开始运作,自从地理位置扩展以来。该预测系统由四个子系统组成:数据验证,阶段预测,淹没建模和警报分配。机器学习用于两个子系统。阶段预测采用长短期内存(LSTM)网络和线性模型进行建模。使用阈值和歧管模型计算洪水淹没,前者计算淹没程度,后者计算淹没程度和深度。本文首次提供的歧管模型提供了一种机器学习替代洪水淹没的液压建模。在评估历史数据时,所有型号都可以实现可操作使用的足够高的度量指标。 LSTM表现出比线性模型更高的技能,而阈值和歧管模型达到了类似的性能度量,以便在淹没程度上进行建模。在2021年的季风季节期间,洪水预警系统在印度和孟加拉国运营,覆盖河流的洪水区,总面积287,000平方公里,拥有350多万人。超过100米的洪水警报被发送给受影响的人口,相关当局以及紧急组织。系统上的当前和未来的工作包括将覆盖范围扩展到额外的洪水易发位置,以及提高建模能力和准确性。
translated by 谷歌翻译